CodeHacker: generación automatizada de pruebas para detectar vulnerabilidades
CodeHacker genera pruebas adversariales para detectar vulnerabilidades en soluciones de programación competitiva. Mejora benchmarks y entrena modelos de IA.
CodeHacker genera pruebas adversariales para detectar vulnerabilidades en soluciones de programación competitiva. Mejora benchmarks y entrena modelos de IA.
Descubre la metodología rigurosa de Gate AI para evaluar detectores de inyección y jailbreaks en LLM con umbral único y 16 benchmarks. Resultados sin sesgos.
Descubre cómo los modelos frontera generan alucinaciones sintéticas como negativos duros para entrenar modelos de código y reducir alucinaciones +18.8%.
Los modelos de embedding de grafos son fiables? Este estudio revela inestabilidad en predicciones debido a semillas aleatorias. Conoce las limitaciones del MRR.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Descubre FinStressTS, un benchmark sintético que revela por qué modelos fallan en pronósticos financieros. Aprende sobre volatilidad, saltos y regímenes.
La detección de anomalías con división de clases puede ser inestable. Un nuevo método sin entrenamiento (fuga de vecindad) predice la inestabilidad. Descubre cómo afecta a modelos en CIFAR-10 y más.
Descubre TypewriterLM, un modelo de lenguaje de 7.24B parámetros entrenado con textos anteriores a 1913. Supera desafíos de calidad y fuga temporal.
¿Son realmente efectivos los modelos de lenguaje tabulares? Nuestra reevaluación de Tabula-8B muestra que la generalización se debe a artefactos de evaluación, no a aprendizaje real.
KnowledgeBerg: benchmark que evalúa cobertura sistemática y razonamiento composicional en LLMs. Resultados clave sobre sus limitaciones.
Descubre los últimos avances y métodos en inteligencia 3D multimodal. Revisión exhaustiva de benchmarks y desafíos clave para la conducción autónoma y simulación.
Descubre cómo los algoritmos de AutoEval usan datos sintéticos para reducir costos de anotación humana y aumentar la muestra efectiva hasta un 50% con GPT-4.
Descubre qué tipo de fuga de datos es más peligrosa. Un estudio masivo en 2,047 datasets revela que la fuga por selección infla los resultados hasta un 90%.
Conoce el benchmark TAD para conducción autónoma. Scene-CoT y TCogMap mejoran la comprensión temporal de VLMs hasta un 17.72% sin entrenamiento.
Descubre cómo el nuevo benchmark CREED evalúa la retrosíntesis con LLMs priorizando la plausibilidad química. Conoce ChemCensor.
Descubre cómo ContinuousBench evalúa si los datos sintéticos con privacidad diferencial aportan nuevas capacidades. Resultados clave incluso con ε=100.
Descubre cómo se documentan las anotaciones humanas en investigaciones de PLN entre 2018 y 2025, y qué aspectos clave suelen omitirse.
Descubre 3DCodeBench, el benchmark que evalúa agentes de IA en modelado 3D procedural vía código. Resultados, fallos comunes y mejoras con escalado en tiempo de prueba.
Un estudio revela que combinar datos reales y sintéticos con un cronograma de entrenamiento específico aumenta la precisión en detección de manos con guantes, clave para seguridad laboral.
El framework NumLeak expone cómo los modelos de IA memorizan datos de benchmarks públicos. Una amenaza para la evaluación y la seguridad.